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基于 广义 分 形 插 值 理 论 的 多 尺度 分 类 尺度 下 推算 法 
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: 多 尺度 数据 挖掘 多 应 用 于 空间 冰 感 图 像 数 据 ， 以 图 像 的 分 准 率 或 者 区 域 分 割 为 依据 进行 尺度 划分 ， 然 后 在 每 
度 层 进行 分 析 。 近 期 ， 有 不 少 学 者 将 多 尺度 数据 挖掘 应 用 于 一 般 数据 集 上 ， 以 等 级 理论 、 概 念 分 层 以 及 包含 度 理 
论 等 为 尺度 划分 依据 ， 研 究 不 同 尺度 层 的 分 布 规律 ， 进 而 发 现 有 意义 的 事实 ， 如 多 尺度 关联 规则 以 及 多 尺度 聚 类 。 但 
是 在 一 般 数 据 集 下 ， 很 少将 多 尺度 数据 挖掘 应 用 于 分 类 算法 领域 。 定 义 了 广义 分 形 插值 理论 的 概念 ， 打 破 了 局 限于 选 
代 函 数 系 统 IFS (iterative function systems) 的 缺憾 ， 拓 展 了 分 形 插 值 的 应 用 ; 提出 了 基于 广义 分 形 播 值 理论 的 多 尺度 
分 类 尺度 下 推 草 法 MSCSDA (multi-scale classification scaling-down algorithm )。 仿 真实 验 建立 在 四 个 UCI 基准 数据 集 
和 一 个 HH 省 部 分 人 口 真 实数 据 集 上 ， 并 将 MSCSDA 与 KNN、Decision Tree 以 及 LibSVM 算法 进行 对 比分 析 ， 实 验 结 
果 表 明 ，MSCSDA 算法 在 不 同 的 数据 集 上 均 优 于 其 他 算法 。 

关键 词 : 多 尺度 数据 挖掘 ; 分 类 ; 分 形 插值 ;尺度 下 推 

中 图 分 类 号 : TP301.6 doi: 10.3969/j.issn.1001-3695.2018.01.0031 


Scaling-down algorithm of multi-scale classification based on 
generallized fractal interpolation theory 
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Abstract: The research of multi-scale data mining mainly applied to space remote sensing image data sets, and conduct scale 
division based on the resolution or regional segmentation of the images, then analysis knowledge on each scale layer. Recently, 
there are quite a few learners applied the multi-scale data mining to general data sets, and conduct scale division based on the 
level theory, concept hierarchy and inclusion degree etc. , study the distribution rule on different scale layers, and then found 
significant facts. For example, multi-scale association rules, multi-scale clustering. But it has not been involved in the field of 
the classification mining. This paper defines the concept of generalized fractal interpolation theory, break the situation that 
limited to the use of the iteration function system(IFS) , and extend the application of the fractal interpolation. Then, a multi- 
scale classification scaling-down algorithm based on the generalized fractal interpolation theory named MSCSDA (Multi-Scale 
Classification Scaling-Down Algorithm) is proposed. This paper performs experiments on four UCI benchmark data sets, and 
one real data set (H province part of the population) . Then analysis the experimental results compare MSCSDA with KNN, 
Decision Tree and LIBSVM algorithms on different data sets. The experimental results show that the MSCSDA algorithm gives 
better results in terms of classification than the others. 


Key words: multi-scale data mining; classification; fractal interpolation; scale-down 


高 等 


人， 


等 学 校 科学 技术 研究 项 目 〈QN2014196); 河北 师范 大 学 硕士 基金 资助 项 目 (xj2015003) 


收 稿 日 期 : 2018-01-18; 修 回 日 期 : 2018-03-06 ”基金 项 目 : 国家 自然 科学 基金 资助 项 目 (71271067); 国家 社 科 基 金 重 大 项 目 (13&ZD091); 河 


现象 所 发 生 的 范围 或 频率 。 研 究 表明 ， 客 观 世 界 中 普遍 存在 尺 
引言 度 现象 中。 

尺度 的 定义 来 源 于 地 学 科学 ， 一 般 指 在 学 习 分 析 中 所 涉及 多 尺度 数据 挖掘 多 应 用 于 空间 遥感 图 像 数 据 ， 以 图 像 的 分 

空间 或 时 间 单 位 ， 也 可 以 指 在 空间 或 时 间 上 ， 某 一 个 过 程 或 辨 率 或 者 区 域 分 割 为 依据 进行 尺度 划分 ， 然 后 在 每 个 尺度 层 进 
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行 分 析 。 近 期 ， 有 不 少 学 者 将 多 尺度 数据 挖掘 应 用 于 一 般 数 据 路 ， 是 解决 非 线性 数据 的 有 效 工 具 。 传 统 分 形 插 值 的 核心 在 于 

集 上 ， 以 等 级 理论 、 概 念 分 层 以 及 包含 度 理论 等 为 尺度 划分 依 根据 自 相 似 性 , 构造 迭代 函数 系统 IFSD, 由 已 知 的 样本 迭代 出 

据 ， 研 究 不 同 尺 度 层 的 分 布 规律 ， 进 而 发 现 有 意义 的 事实 ， 如 新 样本 。 目 前 多 应 用 于 具有 自 相 似 性 结构 的 事物 的 建 模 、 仿 真 

多 尺度 关联 规则 以 及 多 尺度 聚 类 品 。 以 及 数据 可 视 化 。 但 是 仅 局 限于 三 维 以 下 的 数据 ， 大 大 限制 了 
但 是 在 一 般 数 据 集 下 ， 很 少将 多 尺度 数据 挖掘 应 用 于 分 类 分 形 插值 在 一 般 多 维 数据 下 的 应 用 。 


算法 领域 。 目 前 有 学 者 提出 基于 分 形 理论 的 多 尺度 分 类 挖掘 研 从 广义 上 讲 ， 就 是 根据 自 相似 性 ， 从 不 同 尺度 层面 衡量 已 
究 方法 ， 其 详细 论述 了 多 尺度 数据 挖掘 与 分 类 算法 相 结 合 的 有  ” 知 样本 对 待 估 样 本 的 贡献 ， 既 要 考虑 整体 分 布 的 趋势 ， 又 要 考 
效 性 与 可 行 性 ， 介 绍 了 多 尺度 分 类 的 基本 概念 以 及 基本 任务 ; 虑 待 估 样 本 附近 的 局 部 已 知 样本 的 分 布 特点 。 

并 从 多 方面 阐述 了 多 尺度 数据 集 具 有 分 形 特性 ， 即 自 相 似 性 、 定义 1 广义 分 形 插 值 尺 度 划 分 。 设 了 :(X) 一 了 ,其 中 
标 度 不 变性 、 自 仿 射 性 以 及 层次 性 。 进 而 将 衡量 分 形 自 相似 结  X 为 已 知 样本 点 , 经 过 函数 三 映射 ， 得 到 待 估 样 本 为 的 候选 样 
构 的 指标 即 分 形 维 数 作为 尺度 转换 算法 的 方法 论 ， 提 出 基于 分 。 本 集 Y。 函 数 了 全 用 一 个 三 元 组 表示 (L, 半 ,W) 。 其 中 ， 
形 理 论 的 多 尺度 分 类 尺度 上 推算 法 ， 尺 度 转换 算法 作为 多 尺度 。 KL=(1,4,…,l,) ， 表 示 根 据 某 种 条 件 定 义 n 个 尺度 层 ; 
分 类 数据 挖掘 的 核心 研究 内 容 , 本 质 上 是 一 个 知识 推演 的 过 程 ， 和 三 (0 为) ,表示 nn 个 尺度 层 下 包含 的 已 知 样本 的 子 集 ; 
即 由 一 个 指定 尺度 上 学 习 得 到 的 知识 或 者 信息 推演 归 算 到 男 一 。 WW=0W,Ww,…,W,) ,表示 n 个 尺度 层 下 包含 的 已 知 样本 的 子 集 
个 尺度 上 ， 包 括 两 部 分 即 尺度 上 推算 法 和 尺度 下 推算 法 ， 两 个 对待 估 样 本 为 的 贡献 , 其 中 w= 9(X); 在 每 个 尺度 层 下 , 由 已 
算法 的 使 用 由 实际 应 用 中 目标 尺度 相对 于 基准 尺度 的 定性 大 小 知 样 本 的 子 集 ， 根 据 其 对 待 估 样 本 的 贡献 ， 得 到 一 个 待 估 样 本 
决定 的 。 因 而 两 个 算法 相应 而 生 ， 相 辅 相 成 。 在 传统 的 遥感 图 为 的 候选 样本 。 
像 数据 下 ， 对 尺度 下 推算 法 的 研究 已 经 具备 了 较为 成 熟 的 理论 定义 2 广义 分 形 插值 。 设 工 :() 一 和 ， 其 中 ， 待 估 样 本 
和 方法 ， 然 而 在 一 般 数 据 集 下 ， 尺 度 下 推算 法 作为 尺度 转换 算 ”为 的 候选 样本 集 Y， 经 过 机 制 工 得 到 最 终 的 待 估 样 本 。 


二 


法 中 不 可 或 缺 的 一 部 分 ， 目 前 相关 研究 较 少 ， 理 论 与 方法 均 有 
ge . 2 ”多 尺度 分 类 
全 元 吾 。 
尺度 下 推 就 是 根据 大 尺度 上 得 到 的 知识 ， 结 合 小 尺度 固有 多 尺度 分 类 作为 一 个 跨 学 科研 究 课题 ， 其 实质 是 将 多 尺度 


的 信息 ， 推 演出 小 尺度 上 的 知识 。 本 质 上 讲 ， 是 一 个 由 模糊 到 科学 与 分 类 相 结合 ， 多 尺度 、 全 方面 地 研究 数据 特征 ， 从 而 得 
精确 、 弱 化 整体 特征 ， 加 强 局 部 特征 、 忽 略 宏观 特征 ， 保 留 微 ” ”到 不 同 层面 的 分 类 模型 ， 进 而 研究 尺度 转换 机 制 以 及 尺度 转换 
观 特征 以 及 信息 由 少 变 多 的 过 程 。 尺 度 下 推 的 关键 在 于 如 何 增 引起 的 尺度 效应 问题 。 构 造 多 尺度 数据 集 是 进行 多 尺度 数据 挖 
加 小 尺度 细节 信息 ， 插 值 是 最 常用 的 方法 。 掘 的 第 一 步 ， 进 而 在 不 同 尺度 层 上 对 数据 进行 多 角度 的 分 析 学 
最 近邻 插值 法 也 称 为 零 阶 插值 ， 以 距离 待 佑 样本 最 近 的 样 。” 习 。 尺 度 转换 作为 研究 的 核心 ， 其 实质 是 由 某 一 尺度 层 数 据 集 
本 值 作为 插入 值 ， 是 最 简单 的 插值 方法 ， 但 是 精确 度 不 高 ， 尤 ”上 学 习 得 到 的 知识 推演 得 到 其 他 尺度 层 上 的 知识 ， 目 的 在 于 一 
其 当 数 据 的 细微 差距 较 大 时 。 反 距离 权重 插值 的 本 质 在 于 以 多 次 学 习 多 次 利用 ， 避 免 繁 琐 的 学 习 过 程 。 

个 已 知 样本 的 线性 组 合作 为 待 估 样 本 值 ,在 尺度 下 推 的 应 用 中 ， 2.1 构造 多 尺度 数据 集 

将 大 尺度 上 学 习 到 的 知识 作为 已 知 样本 ， 但 是 并 未 考虑 小 尺度 构造 多 尺度 数据 集 是 一 个 由 整 变 零 的 过 程 。 将 原始 数据 外 
上 的 数据 所 固有 的 分 布 细节 特征 。 样 条 插值 法 加 强 了 紧邻 的 两 划分 为 具有 一 定 偏 序 关系 的 多 个 子 数据 集 ， 且 同 层 数据 集 互 
个 数据 点 间 的 细节 ， 可 以 学 习 到 分 布 光滑 的 模型 ， 但 是 在 处 理 。 相交 。 

复杂 的 数据 时 ， 可 能 会 遗漏 局 部 细节 结构 的 信息 。 克 里 格 插值 包含 度 理论 以 及 等 级 理论 一 般 用 于 人 处理 模糊 、 不 确定 性 关 
法 以 及 双 线 性 插值 法 都 是 应 用 十 分 广泛 的 插值 法 ， 都 是 基于 待 ” 系 ， 将 连续 的 问题 离散 化 为 具有 一 定 偏 序 关 系 的 问题 ， 逐 层 深 
插 点 四 周 的 已 知 样本 点 的 信息 ， 但 并 未 考虑 整体 分 布 的 趋势 所 ”化 解决 由 。 这 也 正 是 构造 多 尺度 数据 集 的 思路 。 因 此 ,本文 引 入 
决定 的 待 估 样 本 应 具有 的 独特 差异 643。 分 形 插值 根据 自 相 似 。 包含 度 理论 以 及 等 级 理论 ， 将 数据 集 的 某 一 个 或 多 个 特征 属性 
这 一 特性 ， 既 考虑 了 整体 的 分 布 趋势 ， 又 加 强 了 局 部 分 布 独 有 值 离散 化 为 具有 偏 序 关 系 的 范围 ， 由 此 构造 多 尺度 数据 集 。 如 
的 特征 ， 为 处 理 非 线 性 且 分 布 复杂 的 数据 提供 了 新 的 思路 中。 图 1 所 示 ， 是 一 个 四 层 多 尺度 数据 集 ， 其 结构 类 似 于 树 ， 根 节 
本 文 借 助 分 形 插值 的 理论 ， 定 义 了 广义 分 形 插值 理论 的 概 ” ”点 代表 原始 数据 集 ， 节 点 中 的 了 标志 ,代表 在 该 数据 集 下 训练 
念 , 打破 了 局 限于 迭代 函数 系统 IFS (iterative function systems ) 得 到 的 分 类 模型 。 
的 缺憾 ， 拓 展 了 分 形 插值 的 应 用 ; 进而 提出 了 基于 广义 分 形 插 
值 理论 的 多 尺度 分 类 尺度 下 推算 法 MSCSDA。 
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1 ”分 形 插值 
分 形 插 值 为 处 理 大 量 分 布 离散 且 不 光滑 的 数据 提供 了 新 思 
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图 1 四 层 多 尺度 数据 集 
本 文 所 提 到 的 偏 序 关系 是 绝对 的 偏 序 关系 ， 即 图 1 中 每 个 


节点 仅 与 它 的 孩子 节点 和 双亲 节点 有 关系 ， 兄 弟 节点 之 间 关 系 
不 紧密 。 如 图 1 所 示 ， 选 择 第 三 尺度 层 为 基准 尺度 ， 若 选择 
第 二 尺度 层 为 目标 尺度 ， 则 尺度 上 推 发 生 在 第 二 尺度 层 的 每 一 
个 节点 以 及 与 它 有 关系 的 第 三 尺度 层 的 节点 上 ， 如 图 1 Up 部 
分 ， 是 一 个 由 多 变 少 的 过 程 ; 若 选择 第 四 尺度 层 为 目标 尺度 ， 
则 尺度 下 推 发 生 在 第 三 尺度 层 的 每 一 个 节点 以 及 与 它 有 关系 的 
第 四 尺度 层 的 节点 上 , 如 图 1Down 部 分 , 是 一 个 由 一 变 多 的 过 
程 。 
2.2 多 尺度 分 类 

多 尺度 数据 挖掘 的 核心 在 于 尺度 转换 ， 即 由 基准 尺度 层 得 
到 的 知识 推演 出 目标 尺度 层 上 的 知识 。 通 过 以 上 分 析 ， 定 义 在 
一 般 数 据 集 下 多 尺度 分 类 的 概念 : 

多 


定义 3 尺度 分 类 。 由 原始 数据 集 ， 根 据 包 含 度 理论 以 
及 等 级 理论 ， 构 造 出 多 尺度 数据 集 ; 由 某 些 评价 指标 确定 基准 
尺度 层 数 据 集 ; 采用 传统 分 类 方法 在 基准 尺度 层 数据 集 上 来 训 


练 分 类 模型 ， 确 定 尺度 转换 机 制 ， 由 基准 / 
的 分 类 模型 推演 出 目标 尺 


` 度 层 数据 集 上 训练 
度 层 数据 集 的 分 类 模型 。 


3 ”多 尺度 分 类 尺度 下 推算 法 MSCSDA 


对 于 多 尺度 分 类 而 言 ， 每 层 尺 度 上 学 习 到 的 知识 是 分 类 模 
型 。 那 么 尺度 下 推 就 是 由 整体 数据 集 上 训练 的 分 类 模型 推演 出 
划分 后 的 各 个 局 部 数据 集 上 的 分 类 模型 ， 是 少 变 多 的 过 
程 。 

本 文 以 SVM 一 对 一 多 类 别 分 类 算法 作为 基准 分 类 方法 ， 
那么 ， 基 准 尺 度 层 上 学 习 得 到 的 知识 即 分 类 模型 ， 包 含 的 信息 
有 支持 向 量 、 权 重 系数 以 及 常数 b。 本 文 将 大 尺度 上 学 习 到 的 
分 类 模型 作为 小 尺度 上 的 基本 分 类 模型 其 中 的 权重 信息 以 及 
常数 b 保持 不 变 ， 不 同 的 是 支持 向 量 。 因 此 本 文 将 支持 向 量 作 
为 尺度 转换 的 对 象 ， 根 据 包 含 度 理论 、 等 级 理论 进行 尺度 划分 
后 ， 大 尺度 上 学 习 得 到 的 支持 向 量 ， 会 被 划分 到 小 尺度 上 的 各 
个 局 部 划分 中 去 ， 本 文 将 某 一 局 部 划分 中 保留 的 一 部 分 大 尺度 
上 学 习 到 的 支持 向 量 作为 已 知 样 本 ， 而 缺失 的 另 一 部 分 作为 待 
省 样本 ， 小 尺度 上 的 划分 后 的 数据 信息 以 及 紧邻 待 估 样 本 的 已 
知 样本 作为 局 部 细节 结构 。 已 知 样本 也 就 是 模糊 的 分 类 边界 信 
息 ， 代 表 中 宏观 的 整体 趋势 ， 局 部 细节 结构 代表 着 微观 细节 信 
息 ， 那 么 多 尺度 分 类 尺度 下 推 的 目的 就 是 使 得 模糊 的 分 类 边界 
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精确 化 。 
3.1 MSCSDA 实现 思想 

多 尺度 分 类 尺度 下 推 的 思想 如 下 。 首 先 ， 构 建 多 尺度 数据 
集 ， 本 文 依据 包含 度 理论 与 等 级 理论 ， 构 造 出 具有 树 结构 的 多 
尺度 数据 集 ， 每 一 个 局 部 划分 节点 都 仅 和 它 的 双亲 、 孩 子 节点 
有 直接 关系 。 其 次 ， 选 择 基 准 尺度 ， 并 在 基准 尺度 层 采 用 一 对 
一 SVM 分 类 算法 训练 得 到 基准 分 类 模型 ， 记 录 有 效 知识 ， 权 
重 W 以 及 常数 b, 还 有 作为 尺度 转换 对 象 的 支持 向 量 和 。 然 后 ， 
根据 多 尺度 分 类 尺度 下 推 实 现 机 制 推演 出 目标 尺度 层 每 个 局 部 
划分 的 分 类 模型 。 
3.2 ”MSCSDA 理论 基础 
3.2.1 广义 分 形 桂 值 理论 

根据 第 1 章 定 义 的 广义 分 型 差 值 理论 ， 从 不 同 尺度 层面 衡 
量 已 知 样本 对 待 估 样 本 的 贡献 ， 既 要 考虑 整体 分 布 的 趋势 ， 又 
要 考虑 待 估 样 本 附近 的 局 部 已 知 样本 的 分 布 特点 。 


3.2.2 反 距离 加 权 [9] 

根据 已 知 样 本 与 待 估 样 本 间 的 距离 衡量 已 知 样本 对 估计 
待 估 样 本 的 贡献 ， 距 离 越 近 ， 贡 献 越 大 ， 反 之 越 小 。 

最 常用 的 权重 定义 公式 : 


d,.? 


三 二 - 
a 
= 


其 中 ，d, 表 示 待 估 样 本 与 已 知 样本 的 距离 ，p 为 任意 正 实数 ， 
一 般 取 p=1 或 p=2。 

3.3 ”MSCSDA 实现 机 制 

根据 以 上 分 析 可 以 看 出 ， 对 于 目标 尺度 层 的 每 一 个 局 部 划分 会 
产生 多 个 待 估 样 本 ,对 于 每 个 待 估 样 本 x, 都 需要 进 估 计 ， 其 
x 代表 局 部 划分 中 缺失 的 已 知 样本 。 

详细 步骤 如 下 : 

引 筛 选 出 与 待 估 样 本 浆 类 别 一 致 的 已 知 样本 集 A 和 局 部 划分 
中 除 已 知 样本 外 的 其 他 样本 集 B。 支 持 向 量 从 本 质 上 讲 是 类 别 
边界 样本 ， 所 以 要 选 类 别 一 致 的 数据 进行 分 析 插 值 。 
b) 根 据 广义 分 形 插值 尺度 划分 ,结合 已 知 样本 A 的 数据 值 特点 ， 
确定 Nc 个 尺度 ， 求 出 每 个 尺度 下 覆盖 的 已 知 样本 集 A ， 每 个 
尺度 下 都 会 求 得 一 个 待 估 样本 的 候选 样本 y; ; 然后 根据 广义 分 
形 插值 :(Y) 一 x ， 求 得 最 终 待 估 样 本 值 ， 其 中 机 制 工 表示 如 


UD 


1 N. 
X = 一 >》y O) 
庆生 
c) 求 待 估 样 本 x 的 候选 样本 y 
其 中 ，Ai 记 作 C=(c,c,,…,C,)， 包 含 n 个 已 知 样本 。 
(a) 为 C 的 每 个 已 知 样本 加 权重 值 。 根 据 理 论 基础 的 反 距 
离 加 权 法 得 到 权重 的 最 终 形式 ， 这 里 p 取 值 为 1。 
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Q 十 可 
Wi = 一 内 = 一 人 
yd 1 (3) (18) di /为 已 知 样本 赋 权 重 
/j=l 
其 中 d, 为 待 估 样本 与 已 知 样本 的 欧式 距离 。 (19) Get similarity of each sample in local division 
(b) 求 候选 样本 x。y 即 为 局 部 划分 中 除 已 知 样本 外 的 其 他 20 Ms > | 
样本 集 B 中 ， 与 已 知 样本 C 相似 性 最 高 的 样本 。 


1/ 衡量 局 部 划分 中 样本 与 已 知 样本 的 相似 性 


y=argmax S(C.,b) (4) | | 

DCB (21) Get candidate of the estimated sample y; 
其 中 相似 性 度量 方法 CO) ?一 aTgIDaX 5(C， 访 ) /得 到 候选 样本 》 

(23) end for 
S(C,b)= pe | — 可 (5) (24) Get final value of the estimated sample Xx, 
RE 
与 具有 较 大 权重 的 已 知 样本 越 近 的 样本 ， 越 有 可 能 成 为 候 (25) 万 = pe y，/W/ 确 定 最 终 的 待 估 样 本 值 

和 站 x i=l 
选 样本 ° (26) end for 
3.4 MSCSDA 伪 代 码 (27)return The Classification Model of Target Scale 


Algorithm: MSCSDA 算法 


4 ”实验 分 析 


SVM 算法 是 解决 分 类 问题 最 常用 的 算法 , 针对 多 类 别 分 类 


Input: Original Datasets 


Output: The Classification Model of Target Scale 


问题 ， 常 用 的 算法 有 一 对 一 和 一 对 多 形式 。 本 文采 用 的 基本 分 
ee 类 算法 是 SVM 一 对 一 形式 多 类 别 分 类 算法 ， 其 中 核 函数 采 ) 
(2) Data Scaling; /尺度 划分 ; RBF。 本 文 使 用 MATLAB 实现 MSCSDA 算法 ,借助 LIBSVM 
(3) Build multi-scale datasets; /构建 多 尺度 数据 集 ; 库 ， 其 默认 的 便 是 一 对 一 形式 ， 因 此 本 文 后续 称 SVM 一 对 一 
(4)Get knowledge on the basic scale 多 类 别 分 类 算法 为 LIBSVM 算法 。MSCSDA 算法 是 建立 在 
(5) Choose the basic scale of BS(dsssd ; i 本 .dBs) ; LIBSVM 算法 之 上 的 。 

本 文 在 四 个 UCI 公 共 数 据 集 以 及 一 个 真实 数据 集 上 进行 实 
人 时光 站 惟信 度 验 ， 并 与 Decision Tree、KNN 以 及 LIBSVM 算法 进行 实验 对 
(6) foreach dss do begin 比 ， 验 证 本 文 MSCSDA 算法 的 有 效 性 与 可 行 性 
(7) Classifing on sub datasets; 4.1 数据 集 
| a 本 文采 用 的 四 个 UCI 公共 数据 集 包 括 Ionosphere 数据 集 、 
(8) Get weight matrix; 
和 本人 所 侍 下 : 
OD Goedetantb: Pima Indians Diabetes (PID ) 数据 集 、Spambase 数据 集 以 及 wine 

站住 3 a Br 人 二 人 入 状 握 售 扣 
机 数据 集 ， 真实 数据 集 采用 旦 省 部 分 人 口 数据 ， 这 五 个 数据 集 的 

样本 数量 、 特 征 属性 以 及 类 别 标签 数量 都 不 尽 相 同 。 详 细 信 息 
(11) end for 

见 表 1 数 ] 细 信 息 。 

(12)Scale transformation 见 表 数 集 的 详 轩 信 和 
， 表 1 数据 集 的 详细 信息 
(13) foreach sub dataset B do begin 
(14) Get Ne scale layers; 数据 集 样本 数 等 征 数 类 别 数 
// 根 据 分 形 插值 理论 确定 Ne 个 尺度 层 ， lonosphere 3 | ? 

(15) foreach scale layer do begin PID 768 8 2 
(16) Get the known sample set C; 。 /W/ 确 定 已 知 样本 ; Spambase ee 37 四 
(17) Getthe weight of each known samp based the BW a ” 9 

| . ee HH 省 部 分 人 口 数 

inverse distance weighting formula; 6311 7 3 

据 
4.2 评价 指标 
本 文 实验 中 ， 采 用 最 常用 的 四 个 评价 指标 (正确 率 
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(Accuracy) 00、 标 准 化 互信 息 (NMI) LU、F1-Measure 以 及 
运行 时 间 (Run Time)) 来 衡量 MSCSDA 算法 的 分 类 性 能 以 及 
体现 多 尺度 分 类 的 优势 。 
4.2.1 Accuracy (Acc) 

分 类 的 正确 率 表示 两 者 之 间 的 一 一 对 应 关系 ， 即 正确 对 应 
的 样本 个 数 占 全 部 样本 的 比例 ， 计 算 公式 如 下 : 


1 n 
4cc= 二 >》5(C,map(P)) (6) 
n 


i=1 
其 中 : n 为 样本 总 数量 ，c; 为 第 i 个 样本 数据 的 真实 类 别 标签 ， 
map(P) 表示 第 i 个 样本 的 实验 结果 忆 到 真实 类 别 标签 的 最 
优 映射 ，6(x,y) 是 一 个 匹配 函数 ， 当 x=y 时 ，6(x%,y)=1， 否 则 
0(%,》)=0。Acc 值 越 高， 表示 分 类 效果 越 好 。 


4.2.2 NMI 
标准 化 互信 息 (NMI) 一 般 借助 混淆 矩阵 计算 求 得 ， 计 算 
公式 如 下 : 
De ‘log 
n 7 < 
NMI = (7) 


nn A 
\5 log (Djn, log) 


其 中 : 为 真实 标签 为 i 的 样本 数量 ，n 为 在 实验 中 预测 的 标 
签 为 j 的 样本 数量 ，n,; 标 识 号 真实 标签 为 i， 但 在 实验 中 预测 
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的 标签 为 j 的 样本 数量 。NMI 的 值 越 高 ， 表 示 分 类 效果 越 好 。 
NMI 与 Acc 定 的 关系 ， 当 Acc 值 缓慢 下 降 时 ，NMI 值 会 
迅速 下 降 ， 当 两 个 Acc 值 很 近似 时 ， 其 NMI 值 会 更 近似 ， 因 
此 ，NMI 不 仅 放大 了 Acc 差异 ， 还 增强 了 Acc 的 相似 度 
4.2.3 Fi-measure 

Fi-measure 作为 一 个 重要 评价 指标 ， 其 值 越 大 ， 说 明 分 类 
性 能 越 好 。 对 于 多 类 分 类 问题 ，F1-Measure 计算 公式 如 下 : 


be 


1 [4 
F-measure = 一 > F-measure, (8) 


C il 


其 中 五-measure; 采 用 一 对 多 的 方法 , 即将 第 i 类 样本 作为 正 类 ， 
其 余 类 样本 作为 负 类 ,产生 的 c 个 Fi-measure 值 , 求 和 取 均 值 。 
4.3 实验 结果 分 析 

本 文 首先 根据 包含 度 理论 以 及 等 级 理论 , 将 数据 集 的 一 个 
特征 值 离散 化 为 不 同 的 范围 ， 将 数据 集 划 分 为 二 层 尺度 的 多 尺 
度数 据 集 ， 第 一 层 为 原始 数据 集 ， 第 二 层 划 分 为 二 到 五 部 分 不 
等 , 如 瓦 省 部 分 人 口 数据 ， 是 按照 区 域 代码 划分 为 两 部 分 数据 
集 ， 如 图 1 所 示 Down 部 分 。 

本 文 首先 在 不 同 尺度 层 数 据 集 上 比较 分 类 算法 (KNN、 
decision tree 和 LIBSVM) 的 各 评价 指标 ,体现 多 尺度 分 类 的 优 
势 ， 其 次 对 比分 析 本 文 提出 的 MSCSDA 算法 的 性 能 。 


表 2 各 分 类 算法 的 Acc 值 结果 /% 


KNN decision tree LIBSVM 
数据 集 MSCSDA 
第 一 层 第 二 层 第 一 层 第 二 层 层 三 层 

Ionosphere 73.50 75.21 75.21 76.92 74.36 75.21 77.78 
PID 72.90 74.07 71.35 73.10 74.27 74.46 75.05 
Spambase 81.83 82.43 79.35 81.00 77.04 79.96 84.04 
wine 90.91 93.18 84.09 86.36 93.18 93.18 95.45 

H 省 部 分 人 口 数据 92.42 93.99 94.01 96.39 94.82 96.93 98.08 
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图 2 各 分 类 算法 在 第 一 层 数据 集 上 的 Ace 值 

表 2 展示 的 是 各 分 类 算法 在 两 个 尺度 层 数据 集 上 的 Acc 值 。 
从 表 2 的 结果 中 可 以 明显 看 出 ， 各 分 类 算法 在 第 二 尺度 层 数 据 
集 上 的 Acc 值 较 第 一 层 有 显著 提升 ， 平 均 提 升 大 约 2%。 

主要 原因 可 能 在 于 , 整个 数据 集 的 分 布 呈 现 为 无 规律 状态 ， 
训练 的 分 类 模型 复杂 多 样 ， 即 使 分 类 的 Acc 值 很 高 ， 也 极 有 可 


能 出 现 过 拟 合 的 问题 。 但 是 数据 集 经 过 多 尺度 的 划分 后 ， 降 低 
了 各 子 数据 集 的 分 布 复杂 性 ， 同 时 也 就 降低 了 学 习 到 的 分 类 模 
型 的 复杂 性 。 而 且 本 文 提出 的 多 尺度 划分 是 建立 在 经 验 的 包含 
度 和 等 级 理论 之 上 的 , 目标 性 更 强 。 文献 [12] 提 出 了 基于 聚 类 站 
Boosting 方法 (CBB )， 其 主要 思想 是 先 聚 类 再 分 类 ， 但 是 应 用 
的 数据 集 仅 局 限于 球形 分 布 的 数据 集 ， 而 本 文 提出 的 多 尺度 分 
类 思想 对 数据 集 的 类 型 不 做 限制 。 
本 文 提 出 的 MSCSDA 方法 ， 以 LIBSVM 算法 为 基准 分 类 


wr 


hu 


算法 ， 选 择 LIBSVM 算法 下 第 一 层 即 原始 数据 集 为 基准 尺度 
数据 集 ， 经 过 MSCSDA 算法 ， 得 到 下 推 后 的 第 二 尺度 层 的 分 


类 模型 。 从 表 2 中 看 到 ，MSCSDA 算法 的 Acc 值 较 LIBSVM 
的 第 一 层 具有 显著 的 提升 ， 平 均 大 约 提 升 了 3%， 并 且 经 过 
MSCSDA 算法 得 到 的 第 二 尺度 层 的 Acc 与 在 第 二 尺度 层 数据 
集 上 直接 训练 的 分 类 模型 的 Acc 值 相 比较 ， 平 均 大 约 提升 了 
2%。 

3 呈现 的 是 各 分 类 算法 在 第 


尺度 层 数 据 集 上 的 Acc 
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值 对 比 ， 从 图 中 也 可 以 明显 看 出 MSCSDA 算法 较 其 他 单一 分 类 算法 有 明显 的 优势 ; 
表 3 各 分 类 算法 的 NMI 值 结 
KNN Decision Tree LIBSVM 
0 第 一 层 第 二 层 第 一 层 第 二 层 第 一 层 第 二 层 I 
Ionosphere 0.1900 0.2690 0.2690 0.1820 0.2532 0.2690 0.3172 
PID 0.1053 0.1237 0.1040 0.1130 0.1301 0.1303 0.1394 
Spambase 0.3071 0.3130 0.2692 0.2959 0.2251 0.2941 0.3874 
wine 0.7384 0.7854 0.5898 0.6229 0.7897 0.7897 0.8709 
H 省 部 分 人 口 数据 0.7574 0.7893 0.8160 0.8806 0.7828 0.8804 0.9014 
0.1。 
3 展示 的 是 各 分 类 算法 在 第 一 层 数 据 集 上 的 NMI 值 , 从 
中 可 以 看 出 ， MSCSDA 算法 的 NMI 值 均 高 于 其 他 算法 。 
= Decision 值得 一 提 的 是 在 Ionosphere 数据 集 上 ，Decision Tree 算 
Tree 法 ， 第 二 层 的 NMI 值 较 第 一 层 略 有 下 降 ， 可 以 看 出 看 不 同 尺 
-全 HB>VM 度 下 详细 的 混淆 矩阵 分 布 情 况 。 
表 4 不 同 尺 度 层 下 的 混淆 矩阵 
一 一 MCA 第 一 层 混淆 矩阵 第 二 层 混淆 矩阵 
73 0 64 9 
图 3 各 分 类 算法 在 第 一 层 数据 集 上 的 NMI 值 29 15 18 26 
标准 互信 息 NMI 与 Acc 有 一 定 的 关系 ， 当 Acc 值 缓慢 下 从 表 4 中 可 以 看 出 ， 第 一 层 很 明显 将 全 部 的 第 一 类 数据 正 
降 时 , NMI 值 会 迅速 下 降 ， 当 两 个 Acc 值 很 近似 时 , 其 NMI 值 。” 确 分 类 ， 而 有 29 条 错误 均 是 将 第 二 类 数据 误 判 为 第 一 类 ;而 
会 更 近似 ， 因 此 ，NMI 不 仅 放大 了 Ace 差异 ， 还 增强 了 Acc 的 。 第 二 层 很 明显 的 两 类 均 有 错 分 数据 ， 但 是 总 的 错 分 数量 较 少 
相似 度 。 从 表 3 中 可 以 看 出 ， 经 过 多 尺度 划分 后 ， 各 分 类 算法 。” 些 ， 也 就 是 Ace 值 较 高 。 根 据 NMI 的 计算 公式 可 知 ， 越 是 能 
在 第 二 尺度 层 数据 集 上 的 NMI 值 较 第 一 层 有 显著 提升 , 平均 提 。” ”将 更 多 的 类 别 数 据 全 部 正确 分 类 的 模型 ，NMI 值 越 高 。 但 是 
升 大 约 0.03。 而 Libsvm 算法 在 HH 省 部 分 人 口 数据 的 第 二 层 数 。 很 明显 ， 在 Ionosphere 这 个 数据 集 上 ， 分 类 边界 是 个 模糊 复杂 
据 集 上 较 第 一 层 数 据 集 上 的 NMI 值 大约 提 升 了 0.1。MSCSDA ” 边界， 第 一 层 将 模糊 边界 的 数据 全 部 划分 给 第 一 类 ， 而 第 二 层 
算法 的 NMI 值 较 LIBSVM 算法 在 第 一 层 数据 集 上 的 NMI 均 有 ” 则 是 取 的 中 间 界 ， 尽 管 第 一 层 的 NMI 值 高 一 些 ， 但 是 以 一 概 
显著 提升 ,尤其 是 在 H 省 部 分 人 口 数 据 数 据 集 上 ,提高 了 大 约 。 ”全 的 方式 并 不 可 取 。 
5 各 分 类 算法 的 Fi 值 结 
KNN decision tree LIBSVM 
数据 集 MSCSDA 
第 一 层 第 二 层 第 一 层 第 二 层 第 一 层 第 二 层 
Ionosphere 0.6487 0.6714 0.6714 0.7420 0.6562 0.6714 0.7147 
PID 0.6515 0.6873 0.6843 0.6866 0.6944 0.6973 0.7003 
Spambase 0.8014 0.8132 0.7662 0.7892 0.7359 0.7706 0.8215 
wine 0.9095 0.9343 0.8390 0.8629 0.9299 0.9299 0.9508 
H 省 部 分 人 口 数据 0.9103 0.9229 0.9310 0.9553 0.9345 0.9579 0.9714 
Fi-measure 作为 一 个 重要 评价 指标 ， 其 值 越 大 ， 说 明 分 类 
0 性 能 越 好 。 如 表 5 所 示 ， 经 过 多 尺度 划分 后 ， 各 分 类 算法 在 第 
2 二 尺度 层 数据 集 上 的 Fi 值 较 第 一 层 有 显著 提升 ， 并 且 第 二 层 
es 较 第 一 层 的 Fl 平均 提升 大 约 0.02， 尤 其 是 Ionosphere 数据 下 
MScSDA decision tree 算法 ， 提 升 了 约 0.07;， 而 本 文 提出 的 MSCSDA 算 
法 ， 在 多 数 数据 集 下 ， 其 Fi-measure 也 是 最 高 的 ， 虽 然 在 第 
图 4 各 分 类 算法 在 第 一 层 数据 集 上 Fl 值 二 层 Ionosphere 数据 集 下 ， 仅 次 于 decision tree 算法 ， 但 是 相 
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对 于 LIBSVM 第 一 层 数据 集 下 的 F1-Measure 值 ， 已 经 提高 的 Fl-Measure 值 ， 本 文 提出 的 MSCSDA 算法 的 Fi-measure 值 
平均 约 0.06。 如 图 4 所 示 ， 是 各 分 类 算法 在 第 一 层 数 据 集 上 均 高 于 其 他 算法 。 
表 6 各 分 类 算法 在 第 二 层 数 据 集 上 的 运行 时 间 (run time) /s 


Yn 


山 


数据 集 KNN decision tree LIBSVM MSCSDA 
wine 0.007 0.018 0.004 0.002 
Ionosphere 0.009 0.027 0.008 0.005 
PID 0.011 0.031 0.006 0.004 
Spambase 0.079 0.149 0.2340 0.003 
HH 省 部 分 人 口 数 据 0.111 0.028 0.118 0.008 


理论 支撑 , 拓展 其 他 分 类 方法 (决策 树 、 贝 叶 斯 、 神 经 网 络 等 ) 
一 一 KNN 的 转换 对 象 ， 寻 求 更 优 的 尺度 转换 机 制 ， 衡 量 基准 尺度 选择 的 
评价 指标 ， 从 而 完善 多 尺度 分 类 挖掘 的 理论 和 方法 。 
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